JP Language Model Evaluation Harness
JGLUE + QA、要約、照応解析、数学のタスクなど 様々な日本語タスクに対するモデルの few-shot 評価をまとめている。
url
タスクの詳細
JaQuAD
日本語質問応答データセット
JBLiMP
日本語の言語モデルを対象とした構文評価のためのデータセット
Wikilingua (ダウンロードできず...)
Wikihowの記事から作成された文書を使った要約タスク
元のデータセットは多言語であるが、現在は日本語版のみが追加されている。
XWinograd
Winograd Schemaの文のペアの集合である。
例えば
ボブはトムに尋ねた。トムはお金をいくらか貸してくれるかと。
ボブはトムに尋ねた。ボブはお金をいくらか貸してくれるかと。
この場合、最初の文章が正解
JAQKET v1/v2
Wikipediaの記事タイトルを解答とする日本のオープンドメインQAデータセット